AI时代的安全与隐私:风险管理与法律框架解析
题目:Security and Privacy Concerns for AI
演讲者:Eric Hibbard, CISSP, FIP, CISA, Director, Product Planning-Security, Samsung Semiconductor, Inc.
会议:SNIA Compute, Memory, and Storage Summit
日期:2024年5月22日
今天,我将与大家深入探讨一下与AI紧密相关的安全与隐私问题。
AI,这一前沿技术,无疑带来了众多激动人心的机遇,同时也伴随着诸多问题和担忧。我今天的任务,就是着重阐述安全和隐私领域在审视AI时需要考虑的几个方面。
首先,AI为社会的各个领域带来了前所未有的机遇与挑战。从安全角度看,AI既是对抗者也是防御者的得力工具。我们已观察到,在某些情况下,对抗者甚至早早地利用AI进行非法活动。而在隐私方面,AI可能因司法管辖区的不同而引发各种隐私问题。这正是相关法律法规正在加紧制定与实施的关键领域。
毫无疑问,在开发AI系统和应用时,我们必须充分考虑其伦理和社会问题。需要全面评估可能涉及的范围和风险,并努力将不良的伦理和社会影响降至最低,甚至在某些情况下必须完全避免。这些问题包括但不限于财务损失、心理伤害、对身体健康或安全的威胁以及对无形财产的损害。特别是近年来,生成式AI因其可能未经授权或未经许可地使用受版权保护的材料而引起了广泛关注。
社会或政治体系也可能因AI而受到影响。例如,美国特别关注选举干预问题,尤其是在今年晚些时候的选举前景中。此外,公民自由也可能面临风险,因为AI可能被用于错误地监禁或更容易地识别特定个人。
这些讨论内容多源于ISO文档,尤其是ISO技术报告24368,它为我们提供了关于伦理和社会问题的全面概述。这份报告是非常有价值的参考。
在探讨AI的危害时,我们可以看到它可能对人、组织和生态系统造成损害。这部分内容主要基于NIST(美国国家标准与技术研究院)的AI风险管理框架。该框架从个人层面识别出危害,如对公民自由、权利、身心安全或经济机会的威胁。在社区层面,它则关注对特定群体或亚群体的歧视以及对民主参与或教育机会的损害。同时,它还包括对组织和生态系统本身的危害问题。NIST在评估AI时,会充分考虑这些因素,并研究如何防范和避免这些问题的出现。
经济合作与发展组织(OECD)在隐私和AI领域也做出了巨大贡献。他们制定了一个用于分类AI系统的框架,涵盖了AI模型、经济背景、数据和输入、任务和输出以及这些因素与人类和地球的关系。这项工作大约于2022年完成,虽然时间不长,但在AI领域已经具有里程碑意义。
OECD研究了适用于所有AI参与者的价值原则,并向政策制定者提出了关于AI政策的建议。他们的原则涵盖了人类和地球、人权、隐私、公平性、透明性、可解释性、稳健性、安全性和责任制等多个方面。然而,过度监管可能会抑制创新。因此,他们关注如何在适当的研发投资、数据计算技术以及政策和监管环境之间找到平衡。同时,他们还关心就业岗位的流失和潜在的新岗位创造、自动化、技能发展和国际合作等议题。这些早期的工作为国际社会后续的研究奠定了基础。这些材料的来源已经列在下面,可以进一步查阅。
NIST的AI风险管理框架在OECD模型的基础上进行了扩展。其核心部分是OECD的项目,但NIST在此基础上增加了测试、评估、验证和确认的流程。这些工作需要贯穿于AI的整个生命周期,并全面考虑AI系统的操作环境。这再次体现了对AI系统可能对组织及其接触者带来的更广泛风险的关注。
值得注意的是,NIST并不是唯一在AI生命周期领域运作的机构。ISO也制定了关于AI生命周期及其所谓的高级流程的标准。这份于2022年发布的ISO 22989文档,涵盖了AI的概念、术语以及从初始构思、设计和开发、验证、确认、部署、运营、监控、重新评估到退役的整个过程。虽然这些流程并不新奇,但ISO特别强调了安全和隐私、风险管理和治理在AI整个生命周期中的重要性。根据你的角色和位置在这个生命周期中,这些因素可能会有显著的变化。
许多AI开发者可能并未全面考虑这些元素,即使他们可能正在遵循这种生命周期或处于其某个阶段。对于我们现在所看到的AI在全球范围内的应用,这仍然是一个相对早期的阶段。
那么,AI与传统软件究竟有何不同?普遍认为,虽然两者之间存在许多共性的问题、挑战或困扰(这取决于不同的视角),但AI,尤其是生成式AI,更加依赖于用于训练AI应用或模型的数据。如果这些数据不能真实反映你所希望实现的功能或效果,那么AI系统的最终表现将可能存在某种偏差或问题。因此,这些输入数据或训练数据对于AI系统的成功至关重要。
一个关键的问题是:我们如何保护这些用于训练的数据?你是否拥有合法的访问权?即你是否有权使用这些数据?简单地将AI系统连接到互联网显然不是一个明智的选择,我们已经在一些早期实例中看到了这样的做法可能带来的问题。在训练过程中,数据可能会经历有意或无意的改变,这些改变将对AI系统的性能产生重大影响,进而影响到其输出结果。
另一个关键问题是用于训练AI系统的数据集。比如,你可能创建了一个数据集,初衷是训练一个基于人力资源的AI应用,但随后它可能被挪用于某种营销目的,这就可能引发问题,因为这并非其原始设计用途。同时,我们也在一些早期的生成式AI应用中看到另一个问题:用于训练的数据可能已经过时或陈旧。保持数据的新鲜度是个挑战,因为对许多这样的系统来说,训练过程相当复杂。
最后但同样重要的是,AI系统需要处理规模和复杂性的问题——许多系统包含了数十亿甚至数万亿个决策点。这在规模或复杂性上,远超许多现代常见软件所能处理的范畴。更棘手的是,预测故障模式变得更加困难。如何确认AI正在执行它应该完成的任务?因此,面临的是问题的规模:如何确保我们完全掌握了这个系统的运作?
隐私风险也是不容忽视的。通过数据聚合,原本认为是匿名的数据可能不再保持匿名——有可能被去匿名化。透明度的降低和可重复性问题也增加了我们的担忧。如果从头开始,是否还能通过相同的训练方法得到相同的结果?这往往很困难,因为AI可能会因为某些交互而进入不同的状态。
AI软件测试中存在诸多难题,比如测试什么以及如何测试。代码开发并没有同样的控制措施。我们不会在软件上运行检查器来寻找诸如不适当访问等缺陷。虽然AI系统也可能存在这些问题,但从测试角度来看,它们通常不是主要关注点。AI系统的计算成本也令人担忧。一些国家正在考虑是否要在其管辖区域内建立大型数据中心,部分原因是他们可能缺乏为这些系统提供电力和冷却所需的资源。
另一个关注点是无法预测或检测AI系统的副作用,这些副作用超出了统计测量的范畴。这是大多数传统软件不会遇到的问题,但在开发AI软件时必须予以考虑。
也存在一些专门针对AI系统的攻击。其中一些攻击在数据库等领域也可能出现,但总体而言,这些攻击方式具有其独特性。这些信息来源于正在制定中的新ISO标准27090,该标准为应对安全威胁和故障提供指导。这份文件可能将在约18个月后发布。
那么,我们可能会遇到哪些类型的攻击呢?
投毒攻击(Poisoning attack)涉及故意将恶意数据注入AI系统的训练或推理数据中,以破坏其性能或特定方式影响其行为。
规避攻击(Evasion attack)则是利用人类可以正确理解的输入,但AI系统却错误分类的输入。
成员推理攻击(Membership inference)指的是攻击者通过设计的输入输出配对来确定数据成员的身份,如个人身份信息(PII),并恢复这些信息。例如,想象一个律师事务所使用AI来起草法庭案件的材料,如果对方律师使用相同的AI系统就能窥探他们的工作,这可能会带来严重问题。
模型外流(Model exfiltration)涉及将有价值的训练数据泄露给他人,可能导致竞争劣势。
模型反演(Model inversion)则涉及生成模仿原始训练集中使用的输入的输出。
扩展攻击(Scaling attacks)类似于对AI系统发起拒绝服务攻击,通过大量请求使AI系统过载。
从隐私的角度来看,AI的关注点包括关联性、可识别性、不可否认性、可检测性、信息披露以及无意识性,比如对个人身份信息(PII)的处理缺乏认识。违规是另一个重要问题。目前,隐私是监管机构和立法机构在AI领域最为关注的领域之一。这里引用的ISO 2791文件还处于非常早期的阶段,讨论的是一些初步概念,可能需要数年才能正式发布。
在ISO的框架中,安全和隐私被视为两个不同的方面,但它们同样重要,因为它们各自有不同的影响和问题。
NIST在他们的风险管理框架中确定了一些与可信度相关的关键组件,包括安全性、保障性、韧性、可解释性、可理解性、隐私增强、公平性与有害偏见管理、有效性、可靠性、问责制和透明度。这些组件都必须得到解决,以确保AI系统的可信度,缺少其中任何一个都可能导致问题。
NIST AI风险管理框架(AI RMF 1.0)是我们在考虑AI安全和隐私问题时的重要参考文件之一。
AI的显著趋势和发展备受政府关注。今年早些时候,欧盟发布了《AI法案》,美国发布了有关安全、可靠和可信的AI开发和使用的行政命令。至少有四个美国州(加利福尼亚州、康涅狄格州、路易斯安那州和佛蒙特州)正在制定相关法规。隐私和安全是主要关注领域,知识产权问题也日益凸显。在美国,人类生成的内容受版权保护,而AI生成的内容可能不受保护,因此咨询法律团队以保护AI生成的内容是明智之举。
最后,认知AI系统开始出现。这些代理能够自主或半自主地运行,从而加剧了安全和隐私方面的挑战。
--【本文完】---
近期受欢迎的文章:
更多交流,可添加本人微信
(请附姓名/单位/关注领域)